#DeepSeek V4
DeepSeek-V4技術報告暗藏的10個神級彩蛋,“煉丹玄學”也被寫進論文
DeepSeek在“省錢”和“省資源”上達到了變態的程度。DeepSeek-V4總算來了。4月24日,DeepSeek官方帳號發佈了一篇名為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代》的文章。文章中正式宣佈,“全新系列模型 DeepSeek-V4 的預覽版本正式上線並同步開源。”同時,還介紹:DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本:發佈後,測評、討論已非常充分,不再贅述。盒飯財經關注到,DeepSeek同步發佈了一篇關於DeepSeek-V4 技術報告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf這份名為《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技術報告,共55頁,從架構、通用基礎設施、預訓練、訓練後等6個部分介紹了V4。而這份高度專業的技術報告中,隱藏了10個有意思的小彩蛋。彩蛋一:“Think Max”模式,絕不允許走捷徑的“壓榨”指令位置:第30頁,Table 3原文為:Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.翻譯過來,大概的意思就是:推理投入度:絕對最大化,不容許任何捷徑。你的思考必須極其徹底,全面拆解問題以觸及根本原因,並針對所有可能的路徑、邊緣案例及對抗性場景,對你的邏輯進行嚴苛的壓力測試。要明確寫出完整的深思過程,記錄每一個中間步驟、考慮過的替代方案以及被否決的假設,確保絕對沒有任何未經審視的預設。這段話是模型開啟 Think Max(極致思考模式)時,後台偷偷塞給大模型的“系統提示詞(System Prompt)”。寫得極具壓迫感,像是一個嚴厲的導師在逼學生榨乾腦力,不準有任何偷懶。DeepSeek為其式設定了一套極為嚴苛的系統提示詞。用詞極具壓迫感,還全部使用了絕對祈使句:“絕對最大化”“不許走捷徑”“必須徹底”“嚴酷地壓力測試”“不放過任何一個假設”。它還顯式地命令模型“禁止走捷徑”,要求記錄每一個被拒絕的假設和中間步驟。通過這種極度嚴厲的工程化Prompt,榨乾大模型在 1M Context(百萬上下文)裡的算力去驗證程式碼和邏輯錯誤。這就像是給模型戴上了“邏輯緊箍咒”,確保在處理複雜邏輯或程式碼時,模型不會因為追求速度而忽略細節。彩蛋二:給硬體廠商的“公開信”:別瞎忙活頻寬了位置:第16頁,Section 3.1原文為:Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.意思是:一旦頻寬達到該閾值,便不再是瓶頸,此時將更多的晶片面積用於進一步提升頻寬,會帶來邊際收益遞減。我們鼓勵未來的硬體設計瞄準這樣的平衡點,而非一味地無條件擴展頻寬。DeepSeek在報告中反客為主,給輝達和華為等硬體廠商開出了“方子”。體面表達了他們在硬體方面的觀點:盲目提升頻寬對現在的AI訓練效率提升有限,建議廠商把晶片面積留給更能提高計算通訊比的地方。彩蛋三:極致效率,1M長度下僅需V3.2的10%快取位置:摘要,Abstract原文:In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.意思是:在百萬級token上下文設定下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需其27%的單token推理FLOPs,以及10%的KV快取。DeepSeek在“省錢”和“省資源”上達到了變態的程度。通過 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)技術,它在處理100萬字的長文字時,佔用的記憶體竟然只有前代版本的十分之一。這意味著未來個人電腦甚至手機運行百萬超長文字分析將成為可能。彩蛋四:坦誠的“煉丹玄學”:知其然不知其所以然位置:第26頁,Section 4.2.3原文為:Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.意思是:儘管目前對其底層機制的全面理論理解仍是一個懸而未決的問題,但我們將其公開分享,以推動社區的進一步探索。在Mitigating Training Instability 緩解訓練不穩定性章節中,DeepSeek團隊分享了兩個解決兆參數模型訓練崩潰的獨門絕技,Anticipatory Routing和SwiGLU Clamping。技術報告中,他們也非常耿直地承認:這種“雖然我不知道原理是啥,但它跑起來確實有用,大家拿去用吧”的坦誠,可以說是AI煉丹界的真實寫照了,非常有開源精神。彩蛋五:“快指令”(Quick Instruction)特供Token位置:第33頁,Table 5<|action|> (判斷是否搜網), <|title|> (生成標題), <|query|> (生成搜尋詞)。為了讓Chatbot響應更快,DeepSeek在模型內部植入了一系列專用Token“暗號”。V4之所以能這麼快,是因為它直接復用了已經算好的長文字 KV Cache(快取)。不用像以前那樣把幾十萬字重新喂給另一個小模型去判斷,從而徹底消除了“冗餘的預填充(redundant prefilling)”,這樣使用者的等待時間就能大幅縮短。彩蛋六:Codeforces全球排名第23位位置:第39頁,Section 5.3.2原文為:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.這句話的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 當前在人類參賽者中位列第23名。這個“彩蛋”極具含金量。在純人類參與的全球頂級程式設計競賽Codeforces排名中,DeepSeek-V4的預估分值(3206分)足以排到全球第23名。這意味著它已經超越了絕大多數頂級程式設計師,進入了人類程式設計智力的最頂端一小撮。彩蛋七:內部“員工大調查”,52%的人已離不開它位置:第44頁,Section 5.4.4原文為:In a survey asking DeepSeek developers and researchers (𝑁= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.翻譯過來是:在一項面向DeepSeek開發者和研究人員的調查(N=85)中,這些受訪者均有在日常工作中使用DeepSeek-V4-Pro進行智能體編碼的經驗。當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好成為他們默認且主要的程式設計模型時,52%給出了肯定回答,39%傾向於肯定,而表示否定的不足9%。DeepSeek非常罕見地公開了公司內部85名頂尖研究員的真實反饋。超過一半的DeepSeek內部核心人員已經將其作為日常首選程式設計工具。這種“吃自己的狗糧”的行為比跑分資料更能說明模型在實際生產中的情況。彩蛋八:內部員工的真實“吐槽”被寫進技術報告位置:第44頁,Section 5.4.4原文:Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.翻譯過來就是:受訪者認為DeepSeek-V4-Pro在大多數任務上都能給出令人滿意的結果,但也指出它存在一些細小的錯誤、對模糊提示的理解偏差,以及偶爾的過度思考。這句話緊挨著上一條“內部員工調查”的彩蛋,DeepSeek選擇把內部員工的吐槽也寫了進去。彩蛋九:親民的“中國特色”評測題位置:第43頁,Figure 13為了展示模型在複雜長文字白領工作中的能力,DeepSeek放出的示例任務非常親民。“寫一份某知名奶茶品牌與北京地鐵的聯名行銷策劃”“UGC傳播與社交裂變設計”,比起國外大模型測寫全英文的莎士比亞詩歌,DeepSeek的評測題真的很懂國內打工人的日常PPT需求。彩蛋十:致謝名單裡的神秘測試Dolly Deng位置:第55頁,附錄 A.2 致謝部分附錄 A.2 致謝(Acknowledgment)部分,除了全體作者外,團隊特別單獨點名感謝了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”翻譯過來就是,我們要感謝 Dolly Deng 及其他測試人員,就DeepSeek-V4系列模型的能力所提出的寶貴建議與反饋。能在這樣一份AI基礎模型技術報告中被單獨拎出來感謝的測試(或外部反饋者),不知道他在V4內測期間提交了怎樣關鍵的Bug或改進建議。 (盒飯財經)
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
DeepSeek升級,氣到了黃仁勳
接下來,黃仁勳的無奈和氣憤大機率還將繼續。“不誘於譽,不恐於誹,率道而行,端然正己。”這是上周DeepSeek-V4發佈稿的結尾,DeepSeek自己引用的一句話。字面意思是,不被讚譽誘惑,不被誹謗嚇到,按自己認定的道往前走,端正自己。過去一年多,同行動作頻頻,而DeepSeek除了零散的更新,幾乎毫無動靜,繼而引發不少質疑,但DeepSeek沒有回應過一次。DeepSeek淡定地做自己,輝達卻不能從容了。DeepSeek已明確表示,V4在下半年將正式支援華為算力。巧合的是,在此之前不久,黃仁勳在一檔播客節目裡提到:“如果像DeepSeek這樣頂尖的模型優先在華為晶片上運行,對我們來說將是‘可怕的後果’。”過去兩年,黃仁勳一直苦口婆心地勸告美國:“如果中國不能從美國購買(高端晶片),他們就會自己建造。”但勸告無果,他只能眼睜睜地看著輝達在中國的市場份額從2024年的70%降到2025年的55%。接下來,黃仁勳的無奈和氣憤大機率還將繼續。黃仁勳心裡的意難平,份量越來越重了AI時代之前,黃仁勳只是眾多遊戲宅眼裡刀法精準的“黃狗”。到了AI時代,黃仁勳迎來人生巔峰,輝達市值一路突破5兆美元,全球第一。逆襲背後,靠的是一次豪賭。2006年,輝達推出CUDA開發平台,能夠降低GPU程式設計門檻,讓多個GPU平行運算,從而大幅提升計算性能。但當時除了輝達,誰都沒把它當回事。一名輝達深度學習團隊的成員說道:“在CUDA推出十年以來,整個華爾街一直在問輝達,為什麼你們做了這項投入,卻沒有人使用它?他們對我們的市值估值為0美元。”CUDA十年無人問津,輝達雖然痛苦,但也獲得了先發優勢。所以當AI大潮轟然而至,輝達一飛衝天。時至今日,輝達的GPU更是變成了原油般的存在,幾乎所有大模型都奔跑在輝達的算力晶片上。豪賭成功的黃仁勳,如今不論到那兒都是意氣風發。如果說他還有什麼意難平,恐怕只有中國市場了。黃仁勳在2023年年底接受媒體採訪時表示,中國市場佔輝達銷售額的大約20%。騰訊、阿里、字節等巨頭的訓練叢集,清一色的輝達GPU。此外,在發展得如火如荼的中國智駕市場裡,彼時有超過80%的輔助駕駛晶片也來自輝達。然而一紙禁令,徹底攪了輝達在中國市場的美夢。輝達的高端晶片無法繼續給中國的AI大業添磚加瓦,後來專門為中國市場開發的閹割版的A800和H800也沒能繞開管制,黃仁勳一邊鬱悶一邊絞盡腦汁。2023年11月,矽谷DealBook峰會上,黃仁勳在對著全息演示屏上的中國地圖重申:“失去這個市場,我們沒有Plan B。”2024年1月,黃仁勳來華,在北京、上海、深圳三地的年會連軸轉。上海那一場,他脫下黑皮衣,換上東北大花馬甲,扭起了大秧歌;11月在港科大的講台上,他又動之以理“開放研究是全球合作的最終形式”。進入2025年,黃仁勳一方面繼續向中國市場示好,身著“唐裝”用生硬中文讚揚中國科技發展,一邊對著大洋彼岸曉之以利:“中國是一個不可替代的市場,服務這裡符合美國的利益。”可惜任憑他做足了各種姿態,說盡好賴話,還是事與願違。輝達在中國市場一家獨大的格局一去不復返,華為昇騰、阿里平頭哥、百度崑崙芯和寒武紀,毫不客氣地瓜分了它空出來的位置。到嘴的鴨子越飛越遠,黃仁勳忍不了了。DeepSeek-V4,戳中輝達的命門2026年4月15日,黃仁勳做客美國知名播客節目。面對主持人的一連串追問,其中還夾帶著指責他為了利益不顧國家安全的暗示,黃仁勳罕見地發飆了。他表示,管制的邏輯“極其愚蠢”,是典型的“失敗者心態”。在黃仁勳看來,如果是強者心態,一開始就不該關注要不要限制高端晶片出口。他曾公開表示:“無論有沒有美國晶片,中國的人工智慧技術都在快速發展。問題不是中國是否會擁有人工智慧,它已經擁有了。真正的問題是,世界上最大的人工智慧市場之一是否將運行在美國的平台上。”所以,黃仁勳反覆呼籲放開對華晶片銷售。他不只是怕少賣幾塊GPU,更擔心的是輝達的生態地位被挑戰。一直以來,他真正在意的是CUDA生態。有人比喻,如果把輝達GPU看作“電腦主機”,CUDA就是“Windows系統”。只要該生態能讓大部分人離不開,輝達就立於不敗之地。截至2025年,全球超過450萬開發者在使用CUDA。幾乎整個AI圈子的人都習慣在CUDA上寫程式碼、開發應用。他們所有的學習成本、項目程式碼、工程經驗,全都有輝達的印記。要離開這個生態也不是不行,但那就意味著程式碼重寫,工具鏈重搭,工程師重新培訓。有業內測算指出,非輝達平台上開發周期可能延長6個月,成本增加40%。所謂“賣產品不如賣品牌,賣品牌不如賣標準”,科技行業同樣如此。因此輝達不怎麼操心誰家的AI強不強,只關心他們的AI在不在自家生態裡黃仁勳對於DeepSeek的態度,就是一個例子。去年DeepSeek發佈R1,直接衝擊了行業對算力堆疊的路徑依賴,業內突然意識到原來搞頂級AI可能不需要海量GPU,於是輝達股價大跌,短短三天蒸發了6000億美元。但當時黃仁勳對外沒有顯出一點慌亂,還宣稱DeepSeek及其開源推理模型所帶來的能量“令人無比興奮”,並且篤定這種技術創新反而會帶來更多算力需求。那時他確實有底氣。畢竟R1再怎麼驚豔,終究是跑在輝達的GPU上,活在CUDA的生態裡。DeepSeek-V4的出現,則是把他最擔心的事變成了現實。V4預覽版上線的文件裡有一行小字寫著:“受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,Pro的價格會大幅下調。”言外之意是,等下半年華為昇騰950鋪開了,V4不但會更流暢,價格還能再砍幾刀。V4的存在也是在告訴其他人:離開輝達的晶片和生態,也能幹旗艦模型的活。輝達的生態壁壘就此裂出了一條縫,雖然還微不足道,但對於喜歡把“輝達離倒閉只有30天”之類的話掛嘴邊的黃仁勳,不得不警惕。“全面替代”的口號,不是說說而已想挑戰輝達的遠不止國內企業。2024年,AMD、英特爾、Meta、微軟、Google等9家科技巨頭成立了一個UALink聯盟,針對的就是輝達的護城河——NVLink。OpenAI則是推出Triton編譯器,試圖繞開CUDA的“語言壟斷”。所以段永平曾表達過對輝達的一個顧慮:輝達的護城河雖然很強大,但這麼多巨頭針對它,不能改變一些什麼嗎?對此,輝達見招拆招,收效頗豐。客戶和競爭對手想在NVLink之外另起爐灶,輝達乾脆直接開放NVLink,讓出一部分權限,讓客戶可以把其他品牌的晶片也混進算力叢集裡。中國這邊全然不同,局勢促使我們堅定自研,歷史也反覆證明了爹有娘有不如自己有,必須把輝達從“唯一選擇”變成“備選之一”,那怕中國的晶片在許多方面還暫時落後。這也成了許多中國企業的共識。科大訊飛是一個典型案例,明知遷移成本極高,用輝達方案一個月能完成的任務,遷移到昇騰可能需要三個月,但其董事長劉慶峰直言:“這一步非走不可。”這種不計代價的投入,大概才是真正會讓黃仁勳頭疼的東西。更何況,中國同行也有不少與輝達對壘的底氣。一個是基建優勢。在播客裡,主持人認為輝達如果把高端晶片賣給中國企業,會幫助對手開發出頂尖AI模型。黃仁勳當即反駁道,頂尖的AI模型,不一定要最頂尖的晶片才能訓練出來。中國企業的解決方案是“芯海戰術”,通過相關技術把數百甚至數千顆國產晶片高速互聯,形成一個龐大的算力叢集,用數量優勢彌補單點性能的不足。叢集模式功耗巨大,但好消息是,中國不缺能源。還有市場優勢。晶片和AI好不好用,需要在市場裡驗證和迭代。中國不僅內需市場足夠龐大,中國頭部AI公司還普遍採用開源策略,大幅降低了開發者和企業的使用和二次開發門檻,疊加成本優勢,中國的AI模型能輕易觸達全球使用者。例如2024年初,Meta的大模型Llama下載量為1060萬次,而阿里的大模型Qwen下載量只有50萬次。但到了2025年10月,Qwen的累計下載量為3.853億次,超過了Llama的3.462億次。就像最近很火的何潤東版項羽說的“打仗靠的是決心和勇氣”,挑戰輝達也需要實力、動力和決心。還好這些我們也都不缺。國產晶片“能用”了,“好用”還會遠嗎? (36氪)
CPU價格持續上漲!晶片行業十大要聞解讀
晶片及CPU價格持續上漲:英特爾和AMD的CPU價格自2月份以來普遍上漲了10-15%,且國際大廠正在醞釀在第三季度再次上調價格。隨著AI場景從訓練向推理及智能體演進,CPU在算力架構中的地位不斷提升。DeepSeek V4適配華為昇騰生態,半導體行情爆發:4月27日,DeepSeek V4大模型適配華為昇騰生態,多家國產晶片完成適配,市場開始重估國產算力的商業化前景,A股半導體類股集體走強。4月27日當天,科創50指數大漲3.76%,半導體產業鏈全線走強。4月28日早盤,算力晶片概念延續活躍態勢。氦氣等工業氣體價格持續上漲:受供應鏈緊張影響,高純氦氣(40L)價格一個月內從550元飆升至5000元,氦氣概念股因此大漲。據瞭解,三星和SK海力士此前已表示,由於原材料中斷,光刻膠等產品的供應鏈面臨嚴重衝擊。盛美上海等半導體裝置股下跌:4月28日,半導體裝置股震盪下挫,盛美上海跌超10%,至純科技逼近跌停,芯源微、矽電股份等跟跌。消息面上,盛美上海發佈的一季報顯示其歸母淨利潤同比大幅下滑57.66%。台積電以"二倍速"推進擴產:為應對AI與高性能計算需求的爆發式增長,台積電正以"二倍速"推進擴產計畫,今年將同時有五座2nm晶圓廠進入產能爬坡階段,2nm首年產出將較3nm同期提升約45%。輝達市值突破5.2兆美元,閃迪首次站上1000美元:4月27日美股交易中,輝達大漲4.0%,市值突破5.2兆美元,創下全球上市公司市值新紀錄。儲存晶片股閃迪暴漲8.11%,收盤價首次站上1000美元,受益於NAND快閃記憶體強勁的定價動能。韓國股市超越英國,躍升全球第八:受AI和半導體熱潮推動,韓國上市公司總市值今年來增長逾45%,達到4.04兆美元,超越英國躋身全球第八大股票市場。三星電子與SK海力士兩大儲存晶片巨頭佔據韓國綜指總市值的四成以上。美伊談判陷入僵局持續推高油價,半導體材料供應鏈承壓:美國白宮證實川普團隊正討論伊朗提出的談判新方案,但談判幾乎無進展,荷姆茲海峽局勢再度升級導致油價持續上漲。中東緊張局勢進一步加劇了半導體原材料(氦氣、光刻膠等)的供應緊張局面。電裝將撤回收購羅姆報價,日本功率器件三強合併將加速:因未能獲得羅姆公司同意,日本電裝集團正考慮撤回對羅姆的收購提案。羅姆已確定與東芝、三菱電機進行三家合併磋商。三強合併後的新實體將佔據全球功率半導體約11%的市場份額,規模位列全球第二,僅次於英飛凌。費城半導體指數結束18連陽,晶片股走勢劇烈分化:4月27日美股收盤,費城半導體指數下跌1.34%,結束了長達18個交易日的連續上漲紀錄。晶片股走勢呈劇烈分化態勢,Arm跌超8%,邁威爾科技、AMD跌超3%,而高通則大漲逾7%。 (晶片行業)
FORTUNE雜誌—梁文鋒,不再孤勇
4月的最後一周,梁文鋒做了一件簡單而精準的事。天眼查資訊顯示,4月27日,DeepSeek註冊資本由1000萬元增至1500萬元,增資幅度50%。梁文鋒的直接持股從1%躍升至34%,寧波程恩(合夥企業)持股則從99%降至66%,這位低調的創始人由此可支配公司約84%的股份。看似一次內部股權結構的微調,微妙之處在於時機,因其恰好發生在一場引爆中國AI產業鏈的旗艦發佈之後。三天前,DeepSeek-V4帶著1.6兆參數的開源模型登場,再次改寫了遊戲規則。而梁文鋒在這個時間點強化控制權,傳遞了一個明確的訊號——“孤勇者”的時代或許已經結束,屬於梁文鋒的時代則剛剛開始。圖片來源:視覺中國中國大模型的“DeepSeek時刻”4月24日,DeepSeek-V4預覽版正式上線並同步開源。這是梁文鋒迄今交給世界的最硬核的答案。V4包含兩個版本:V4-Pro總參數達1.6兆(啟動490億)、V4-Flash總參數2840億(啟動130億),雙版本均原生支援百萬token超長上下文。在性能維度上,24項基準測試的評估顯示,V4-Pro在其中3項中超越了所有參與比較的大語言模型;V4在MMMU多模態基準測試中較前代提升了21.4分,複雜場景理解能力顯著增強。更深遠的變化藏在效率裡。相比上一代V3.2,V4的單token推理算力需求下降了73%,KV快取被壓縮到原來的十分之一。DeepSeek自己在論文中也坦率承認——V4-Pro-Max的表現“小幅超越當前的領先開源模型,並高於GPT-5.2和Gemini-3.0-Pro,但仍然落後於GPT-5.4和Gemini-3.1-Pro,差距大概在三到六個月”。這句話傳遞了兩個關鍵資訊:中國大模型正以前所未有的速度逼近第一梯隊,而與此同時,這次發佈並未改變中美頂級大模型之間的基本格局——追趕仍在繼續。正是這種謙遜裡的“實誠”,讓整個行業的價值在這場效應中重新分配。在V4開源模型的衝擊下,市場給出了極其“教科書式”的反饋。最顯著的效應之一,是當日大模型類股的兩極分化。智譜收盤跌9%,盤中最大跌幅超12%;MiniMax收跌9.44%,盤中一度跳水超12%。“Token第一股”迅策收盤也跌近16%,成為當日港股科技類股跌幅最大的標的之一。與此同時,國產晶片類股全線爆發:華虹半導體港股盤中漲約17%,收漲15%;中芯國際收漲超10%。摩根大通將“大模型回呼”與“恆生指數當日上漲0.2%”的事實並列在一張結論表中,認為這並非系統性風險,而是一場產業鏈內部價值重分配在資本市場的集中定價,並稱DeepSeek-V4的發佈是“行業利多,而非零和衝擊”。為何如此樂觀?在摩根大通的分析框架裡,V4事實上強化了中國LLM行業的三個關鍵支柱——算力供應釋放、定價紀律和結構性成本曲線壓縮。DeepSeek一直在其分析師“4-5月事件日曆中最大的單一負面競爭催化劑”中佔據重要位置,隨著V4落地並被消化,這一不確定性正式出清了。招商證券指出,1M token上下文的V4全系標配“開源SOTA兌現,但並未全面超越海內外旗艦競品”,意味著競爭加劇但未到格局重塑的地步。瑞銀報告也仍然看好智譜在編碼領域的持續領先地位和MiniMax在V4未著重強調的多模態領域的差異化定位。但不得不承認的另一面是,DeepSeek的開源策略將大大擠壓其它大模型公司在B端市場的議價空間,畢竟企業客戶有了更多開源模型的選擇權,大模型公司的“純技術稀缺性溢價”也隨之下降。而且,這些公司還面臨一個共同的定價壓力:DeepSeek預告下半年昇騰950出貨後V4-Pro價格還會大幅下調,這會進一步壓縮模型的定價空間。“國芯+國模”:國產AI的雙向奔赴DeepSeek-V4的真正敘事,從來不僅僅在模型本身。很長一段時間裡,中國頂級大模型的訓練與推理幾乎完全依賴輝達的GPU和CUDA生態,國產晶片扮演的角色不過是“備選項”。但這一次,行業慣例發生了根本逆轉。DeepSeek-V4並未向輝達和AMD提供早期存取權,反而優先開放給華為昇騰,從而從設計階段就開始了芯模協同最佳化,獲得了數周時間進行底層適配,包括指令級、算子庫和推理框架。在深度最佳化後,V4在華為昇騰晶片上的推理速度較初期版本提升了整整35倍,華為CANN框架與輝達CUDA的程式碼相容性已逼近95%。而且這種“Day 0”等級的適配已從華為昇騰蔓延至更廣闊的本土晶片陣容,包括寒武紀、沐曦、海光、摩爾線程(FP8)、崑崙芯、平頭哥真武、天數等主流國產AI晶片都迅速實現了全量適配與推理部署。鏈式反應由此放射。數月之前,據The Information援引知情人士消息,阿里、字節和騰訊已累計訂購數十萬顆華為AI晶片。這不是一次試驗,而是一項“協調一致的努力,旨在建立一個純國產的AI技術堆疊”。2025年全年,國產AI晶片在國內市場的份額已躍升至41%,其中華為昇騰佔據近半。輝達曾在這個市場上佔據90%以上的絕對壟斷地位,如今,不可動搖的格局開始鬆動。中銀國際指出這一鏈條的深層意義:“國產大模型已基本跑通全端國產化,理論上已形成從底層硬體、基礎軟體、平台服務到上層應用、安全體系的完整技術鏈條,國產算力類股迎來質變臨界點”。華泰證券研報也表示,市場容易被“降本”二字迷惑,但真正的邊際變化,在於長上下文成本的斷崖式下降將讓複雜Agent、多文件分析、長周期任務等場景變得可用——推理呼叫量與儲存訪問頻次將隨之擴張。顯然,無論外界如何評價,梁文鋒截至目前仍然保有不被任何人設計好的時間線。他自掏腰包投入DeepSeek的資金據傳累計超過200億元。他曾被媒體貼上所有這些標籤——“不融資”、“不接受外部資本”、“不被任何人的商業化時間表綁架”。他營運著一家近乎“研究機構”而非商業公司的心態。只是即使是這位“AI隱士”,也不得不在2026年向現實邁出了一步。近期有消息稱DeepSeek正啟動成立以來的首次外部股權融資,以超100億美元的估值,計畫募集不少於3億美元資金。在V4面世之際,梁文鋒在融資啟動和內部增持方面同步推進,無疑是為未來的IPO鋪路,從而全面激發人才留存與發展。而他在融資真正落地前搶先出手加碼控制權,傳遞了清晰的訊號:資本可以進來,但控制權不在談判桌上。值得注意的是,DeepSeek-V4的發佈公告引用了《荀子》:“不誘於譽,不恐於誹,率道而行,端然正己。”這些話由DeepSeek自己寫上,指向某種遠超股價漲跌的東西,其中最關鍵的是“國芯+國模”的適配處理程序。4月27日,中國信通院宣佈,正式啟動DeepSeek V4國產化適配測試,推動模型與國產軟硬體深度協同、加速產業落地。本次測試依託工信部重點實驗室與AISHPerf基準體系開展,覆蓋晶片、伺服器、一體機、叢集、開發工具鏈、智算平台等全端AI軟硬體產品,聚焦DeepSeek V4全系列模型的推理、微調流程,並形成立體化評測體系。DeepSeek的股權變更可被視為其正式融入主流商業競爭的號角,梁文鋒也將不再是在中國大模型發展路上那個“孤勇者”。而這條路,是用國產算力鋪就的。 (財富FORTUNE)
國家級背書!中國信通院牽頭測試,DeepSeek V4改寫中國AI格局
近日,信通院正式官宣——啟動DeepSeek V4的國產化適配測試工作,這釋放了什麼訊號?簡單說,它是工信部直屬的科研事業單位,毫無疑問的“國家隊”!咱們平時聽到的5G、工業網際網路相關的產業規劃、技術標準,很多都有它的身影。這次由它牽頭做適配測試,真正的“國家級背書”,一劑強心針。這事其實早有鋪墊。還記得4月24號,DeepSeek剛發佈V4預覽版,就同步開源了——不管是智能體能力、世界知識,還是推理性能,在國內和開源領域都是頂尖水平。更關鍵的是,它分了兩個版本,開發者只要改個參數,就能直接呼叫API,門檻特別低。最讓人驚喜的是,發佈當天,多家國產硬體廠商就火速跟進,搞起了“0day適配”。說白了就是當天發佈、當天適配,一點不拖沓。這可不是簡單的“能運行”,而是真正的軟硬體協同最佳化,能把國產晶片的算力潛能充分發揮出來,從根本上解決咱們以前“有晶片、無生態”的難題。咱們來看看這些廠商的動作有多快:華為計算直接宣佈,昇騰超節點全系列產品都支援。DeepSeek V4,雙方深度協同,把芯模技術做到了無縫銜接。華為雲也不甘落後,首發適配,開發者不用自己部署,一鍵就能呼叫V4的API,特別方便。不止華為,其他國產晶片廠商也沒閒著。寒武紀當天就基於vLLM推理框架,完成了V4兩個版本的適配。摩爾線程在國產全功能GPU上,率先實現了對V4最新算子庫的支援。更有份量的是,全球智能體風向標OpenClaw,也官宣全面接入,還把V4 Flash當成了默認大模型。這就相當於,咱們的國產大模型,已經得到了全球行業風向標等級的認可,不再是“閉門造車”。再說說這次信通院牽頭的適配測試,可不是走過場。測試依託專門的重點實驗室和專業的測試工具,覆蓋了晶片、伺服器、開發框架等所有AI軟硬體產品,聚焦推理、微調這些核心流程,從易用性、性能、成本等多個維度做評估,形成了一套全方位的評測體系,就是要客觀檢驗適配效果,推動模型和硬體真正做到深度協同。結合之前中美科技脫鉤、中國限制美資滲透的背景,再看這次的適配測試,其實邏輯特別清晰:美國一邊搞資本封鎖,一邊卡我們晶片脖子,就是想讓我們的AI產業斷檔。但我們沒有被動挨打,反而主動發力。我個人覺得,這才是最硬氣的破局之路。以前我們可能還會依賴國外的晶片和資本,但現在,我們有了DeepSeek V4這樣的頂尖模型,有華為、寒武紀這些國產硬體廠商的全力配合,還有信通院這樣的“國家隊”牽頭護航,相當於把AI產業的“命脈”,牢牢握在了自己手裡。以前我們可能還會有僥倖心理,現在徹底清醒了:核心技術買不來、求不來,只能靠自己。而DeepSeek V4的國產化適配,就是我們打破封鎖、實現自主可控的重要一步。 (W侃科技)
全網最強萬字解讀:DeepSeek-V4 掀翻了誰的桌子?
“370倍的鴻溝,不只是限時促銷。”GPT-5.5 “大杯版”的輸出價格是 130 美元/百萬 Token,而 DeepSeek-V4 隻要 2.5 元人民幣。在同樣的智能水位下,兩者的成本差了整整 370 倍。這絕非一場網際網路式的“補貼大戰”或限時促銷,而是一場已經持續了四年的中國特色“效率革命”。在 Agent 時代,當長程任務的一致性需求迫使 Token 消耗量呈指數級增加時,DeepSeek-V4 延續了其“用更少的資源做更多的事”的硬核傳統,再一次以極致的壓縮方案,將百萬上下文的門檻從“奢侈品”變成了“日用品”。但省錢從來不是免費的午餐。每一次效率的跨代領先,都在系統複雜度、生態鎖定和能力邊界上埋下了伏筆。為什麼 OpenAI、Anthropic 始終堅守稠密模型與原生長窗?DeepSeek 與昇騰晶片的深度軟硬繫結,究竟是國產替代的曙光,還是建構了新的技術孤島?當大模型競賽進入“系統戰爭”的深水區,誰能定義下一個十年的 AI 基礎設施?在Deepseek V4發佈當天的GAIR Live圓桌上,雷峰網聯合創始人岑峰對話三位行業專家:數勢科技創始人兼CEO黎科峰智源系統智能研究組研究員劉廣清昴智能技術負責人楊澤乾從產業競爭、系統生態和技術架構三個維度,拆解DeepSeek-V4的效率帳本。01. 四次"掀桌子",掀的是不同的桌子DeepSeek的"掀桌子"不是一生只有一次的事件,而是一場分階段、分維度的系統性進攻。黎科峰將V2到V4的四次發佈拆解為四個不同的戰場:V2掀的是"價格桌":KV Cache壓縮90%以上,API價格打到GPT-4的1%;V3掀的是"訓練桌":不到600萬美元訓練出GPT-4o級模型,證明了中國團隊可以用極低成本做出世界一流基座;R1掀的是"推理桌":30萬美元純強化學習湧現出CoT能力,讓全球看到推理模型不必依賴天價算力。而V4掀的,是"系統桌":在 GLM、Kimi、Qwen、Gemini 等強手環伺下,V4 不僅補齊了 Coding、數學與長上下文的短板,更完成了對昇騰 910B 算力的徹底適配與 FP4 量化支援。黎科峰指出,V4 的真正不同在於:它不再是“從 0 到 1”的驚喜,而是在“從 1 到 100”的正面戰場上,用工程能力和系統效率硬碰硬地贏了。這種進化軌跡如同賈伯斯提到的“連點成畫”(connecting the dots):分散的效率突破,最終拼出了一幅完整的、獨立於 CUDA 生態之外的 AI 基礎設施圖景。02. 2%的演算法暴力美學在 DeepSeek-V4 的技術報告中,最令業界震撼的數字莫過於“2%”。在 Transformer 架構統治大模型的今天,長序列處理產生的 KV Cache 始終是視訊記憶體消耗的“黑洞”。楊澤乾指出,DeepSeek 的進化本質上是一場“存量空間的戰爭”。V2 引入 MLA 壓縮了 90% 的快取空間;而 V4 進一步祭出了 CSA(壓縮稀疏注意力)與 HCA(混合注意力) 的組合拳。這不僅是數學上的奇蹟,更是工程上的大膽取捨。楊澤乾認為,DeepSeek 將計算複雜度從傳統的 O(n2) 壓向了接近線性。這意味著,百萬級長文字從此前的“奢侈品”變成了“日用品”。這種“極致壓縮”路徑,雖然在極端長度下可能存在檢索性能的衰減,但它解決了“能用”和“好用”的門檻問題。這種架構的複雜性,被嘉賓們稱為“演算法的暴力美學”。它反映了這樣一種技術之美:在算力極度稀缺的背景下,中國工程師選擇用更複雜的系統邏輯,去避險硬體資源的匱乏。當百萬級長文字不再是需要慎重使用的“昂貴資源”,Agent 的長程思考才真正具備了大規模落地的經濟性基礎。03. 效率革命的隱性代價:選擇即取捨極致的省錢往往伴隨著複雜度的代價。楊澤乾直言,DeepSeek 的每一筆效率收益,都在其他地方留下了帳單:性能的衰減: CSA 和 HCA 的極致壓縮,導致在 128K 之後的長序列檢索性能出現不可避免的衰減。這種“遺忘的藝術”意味著在處理極端長度的邏輯推理時,模型可能出現邏輯斷層,這與 Claude 追求的“完美檢索”是截然不同的路線。架構的債: 為了省錢,整體架構變得極其精巧且複雜。這雖然在訓練側省下了真金白銀,但在後續的跨平台遷移、不同晶片的算子適配上,會帶來極高的工程難度。MoE 的連貫性瓶頸: 作為 MoE(混合專家模型)的極致信徒,DeepSeek V4 總參數 1.6T 卻只啟動 49B,這種“細粒度路由”雖然效率驚人,但在需要高度全域一致性的長程 Agent 任務中,表現仍遜於昂貴的稠密模型。這些帳單不是缺陷,而是深思熟慮後的選擇。DeepSeek 這種聰明之處在於:它清楚地知道自己在放棄什麼,並且成功地將這些“放棄”轉化為了極具殺傷力的商業優勢。04. 長上下文的真相:我們只走了一半的路雖然百萬上下文已成標配,但劉廣拋出了一個更尖銳的判斷:“現在的技術只解決了一半問題——能記住,但學不會。”目前大廠的長文字策略各具特色:DeepSeek 走實用主義壓縮路線,成本極低;Gemini 走原生架構路線,全域一致性好但擴展性受限;Claude 追求高精度檢索,是法務和醫療場景的首選;OpenAI 則利用推理模型最佳化邏輯深度。但這些策略本質上都是“記憶”而非“學習”。模型可以一次性吞下整本《三體》做總結,但無法在與使用者的長期互動中持續更新權重、沉澱個性化的知識。人一輩子讀的書可能遠超百萬 Token,卻能將其內化為智慧。大模型的長文字技術如果不能跨越從“臨時快取”到“權重更新”的鴻溝,長上下文就依然只是一個更寬的、容易被溢出的漏斗。這意味著,我們還在長上下文這條路上走了一半,剩下的那一半,是如何讓模型在互動中真正"成長"。05. MoE vs 稠密,不是技術優劣,是生存策略一個有趣的地理髮現是:國內“開源御三家”(DeepSeek、千問、Kimi)不約而同選擇了 MoE 路徑,而 OpenAI、Anthropic 等美國巨頭仍傾向於稠密模型。黎科峰認為,這折射出的是中美兩國在資源約束下的必然選擇:美國路線:核心邏輯是資本驅動的“大力出奇蹟”,通過堆疊晶片和電力維持絕對領先。中國路線:核心邏輯是約束驅動的“極致性價比”,在算力封鎖和預算受限的環境下,通過 MoE 實現“降維打擊”。他用一個比喻道出了本質:"家裡有肉吃,為什麼要去吃粗糧?"DeepSeek的MoE+FP4+昇騰繫結,不是"最優技術路線",而是"受限環境下的最優解"。但正是這條"粗糧路線"正在展現出驚人的競爭力。DeepSeek的API定價僅為海外大廠的1/10,讓中國模型在 API 定價上展現出了顛覆性的優勢。當性能接近、成本差一個量級時,商業化天平就會發生傾斜,迫使全球大模型產業重新思考成本紅線。06. 從模型競賽到系統戰爭在圓桌的尾聲,三位專家達成了共識:大模型產業正從單純的“算力競賽”轉向全端的“系統戰爭”。黎科峰指出,對於擁有數萬名員工的科技巨頭,如果全員使用 AI 輔助程式設計或辦公,Token 成本將是天文數字。“用得起”本身就是最大的競爭壁壘。DeepSeek 的護城河,並不在於它比對手聰明多少,而是在於它成功地將 AI 從“少數人玩得起的奢侈品”,變成了“成千上萬家企業工具箱裡的日用品”。劉廣分享的案例更令人震撼:在國產算力生態中,以前編寫一個底層算子需要專家手寫一兩周,現在利用 Agent 輔助只需 10 分鐘。這種效能提升帶來的價值,正反向驅動著整個國產系統生態的進化。DeepSeek-V4 的意義在於,它打破了 Scaling Law 只能靠“堆算力、堆參數”的增長慣性。它證明了:智能的邊界不僅由晶片定義,更由工程師的想像力和工程能力定義。 桌子掀翻之後,最重要的不是誰掀的,而是誰能在廢墟上重建一個更便宜、更可控、更具生命力的 AI 秩序。以下是此次圓桌討論的精彩分享,雷峰網進行了不改原意的編輯整理:1. 從“打榜”到“落地”,DeepSeek V4技術報告解讀岑峰:各位嘉賓、朋友,大家晚上好。昨天這個時候,我主持了一場關於Claw類產品Token焦慮的圓桌。當時我們討論了“記憶是資產還是負債”的命題。緊接著 DeepSeek V4 便震撼發佈,它通過 CSA(壓縮稀疏注意力)與HCA(混合注意力)的混合架構,將 1M 上下文的 KV Cache 壓低至傳統方案的 2%。換言之,當記憶規模爆炸,DeepSeek 選擇了“遺忘的藝術”,並以極高的架構複雜度作為支撐。回顧其路徑,V2 將 KV Cache 壓縮 90% 以上;V3 以不到 600萬美元訓練出 GPT-4o 等級的模型;如今 V4 更是將上下文推理成本、1M 上下文的 KV Cache大幅降低。這種極致效率的領先,正在系統複雜度、生態鎖定和能力邊界上埋下深遠伏筆。今天我們邀請到三位嘉賓,從效率與代價的角度進行拆解並分析:DeepSeek的極致效率意味著什麼?中國開源御三家的開源 MoE 路線與西方的稠密模型路線將如何分化?下一個十年的AI基礎設施如何演變?按照慣例,我們先請三位嘉賓分享各自視角下對Deepseek技術報告的深度解讀。黎科峰:最近很熱鬧,GLM、Kimi、Qwen都發佈了最先進的模型,在OpenSource榜單上面輪流坐莊。大家都在等 DeepSeek V4,今天它終於發佈,從 Benchmark表現來看,其綜合感知明顯優於此前的開源模型,從股市上來看,DeepSeek概念股今天漲得非常瘋。這次發佈具有“掀桌子”的意義,核心體現在四點:第一,真開源。DeepSeek 依然堅持最開放的 MIT 協議,不設商業化限制。在其他幾家大模型紛紛加碼開源“枷鎖”的背景下,這種堅持極為不易。第二,V4 徹底適配了華為昇騰晶片並支援 FP4 精度。這標誌著大模型從訓練到推理真正實現了中國自主安全可控的閉環。第三,價格。隨著 OpenClaw 等 Agent 產品的火爆,Token 消耗量呈十倍級增長。海外閉源模型的高昂價格讓開發者難以承受,而DeepSeek 將價格壓到了 25 元人民幣/百萬 Token, Flash 版本更便宜,十倍量級。這極大促進了多 Agent 生態的落地。最後,在關鍵能力上也有不俗表現, V4的亮點不僅在於降本,更在長上下文、數學及程式碼能力上部分反超了海外領先的閉源模型。尤其是程式設計能力的提升,為大模型的應用生態拓展了巨大的空間。完全開源、低成本、接近世界領先、完整國產化軟硬體生態,這四個核心點放在一起,既好又有用,而且還便宜。劉廣:DeepSeek V4 的發佈正值大模型從“打榜”轉向“落地”的範式拐點。當前 Agent 架構盛行,產業界最核心的關切已聚焦於長上下文的處理能力與綜合推理成本。在技術架構上,V4 展現了極致的效率最佳化。其最顯著的突破在於實現了混合精度訓練:在專家層(Expert)使用 FP4 精度,其餘部分採用 FP8。這種精度的跨越不僅大幅提升了訓練效能,在推理側也通過顯著壓縮 KV Cache 開銷,極大地降低了計算量與延遲。以往這類低精度支援高度依賴輝達生態,但 V4 證明了國產晶片已能逐步適配混合精度量化的訓練與推理。這預示著國產算力將真正具備支撐超低成本推理場景的能力。當然,國產生態在先進演算法適配上仍存挑戰。DeepSeek 同步發佈的 Tylan 庫,以及智源支援 8 款國產晶片的 FlagOpen 平台,都在致力於打破這一瓶頸。我們關注的重點是“系統智能”——即利用 AI 能力反哺底層基礎設施。在國產晶片的算子適配中,我們已開始利用 Agent 自動化工具完成複雜算子的精度對齊與調優。這種“模型能力提升帶動底層系統最佳化”的加速循環,將是未來的主流方向。DeepSeek V4 通過開源方案大幅壓低 Token 成本,為整個國產算力生態向極致效能演進提供了關鍵牽引。楊澤乾:DeepSeek V4 技術報告中最令人震撼的突破,首先在於其對注意力機制的革命性最佳化。長期以來,Transformer 架構 O(n^2)的計算複雜度始終是長序列處理的瓶頸。雖然業內在探索 Mamba 等新架構,但其成熟度尚不及“MoE + Transformer”組合。此次V4 通過 CSA(壓縮稀疏注意力)與 HCA(重度壓縮注意力)的交替式設計,將 KV Cache 極致壓縮至傳統方案的 2%,使計算複雜度從O(n^2) 降至接近線性。這標誌著百萬級長文字從此前的“高門檻消耗”轉變為低成本的“日用品”。其次是異構算力環境下的訓練穩定性。針對在華為昇騰、華虹等國產算力底座上進行大規模預訓練的挑戰,V4 引入了 Break-off 投影與 ThinkingHorn迭代方案,實現了國產算力底座上的不停機穩定預訓練。同時,針對 MoE 架構,V4 利用 Ingram 機制有效解決了“模型越大、推理越慢”的行業悖論。當然,追求極致效率必然帶來技術取捨。報告中提到了長文字的遺忘性,不會像Claude或Gemini的超長文字精準性那麼強,一定長度之後存在邏輯斷層和精度損失,這是對極致效率追求的取捨。此外,為了壓低成本,V4的架構變得極其複雜,這在後續的推理極致最佳化以及跨平台遷移上,增加了額外的工程成本。但總體而言,這些取捨並未掩蓋DeepSeek V4 在國產算力約束下所展現出的卓越技術含金量。2. 掀桌子、RL 暴力湧現、OPD 工程權衡,Deepseek技術哲學的進化岑峰:剛才三位老師從不同視角分享了 DeepSeek V4 的架構演進。楊老師最後提到的“取捨”非常關鍵。從 V2 到 V4,DeepSeek不斷證明用更少的資源可以實現更強的性能。但正如業界所言,極致的省錢往往伴隨著系統複雜度的代價。接下來的核心討論,我們將聚焦 DeepSeek 這種效率優先的技術路線。請教黎科峰老師:DeepSeek 的歷次發佈常被評價為“掀桌子”。從V2、V3、R1 到現在的 V4,您認為每一次“掀桌子”有什麼不同?它們掀翻的是同一張桌子,還是開啟了不同的秩序?黎科峰: “掀桌子”這個詞雖然被多次使用,但 V4 與往屆確實有顯著區別:去年的 DeepSeek R1 解決的是“從 0到 1”的問題,它首次在開源界大規模實現了思維鏈(CoT)推理,讓全球看到中國團隊能以極低成本做出媲美閉源模型的效果。那是從無到有的驚喜。而此刻的 V4 面臨的競爭格局截然不同。在 V4 發佈前,GPT-5.5、Gemini 1.2 Pro 及國產的 GLM、Kimi、千問等已經輪番“坐莊”,已經有四波了。V4的壓力在於:如果你發佈後的表現不如對手,那麼“掀桌子”就無從談起。經過初步測試,我們發現 V4 的表現非常堅挺,尤其在程式設計能力上, DeepSeek 早期就主打 Coding,但在此之前,大家在嚴肅的工業級場景中仍傾向於使用海外閉源模型。現在V4 的 Coding能力已經達到了可以作為生產力工具直接創造 AI 產品的水平,這是其能力的重大補齊。另一個重要意義是擺脫 CUDA 生態的限制,智源等機構一直在推動國產算力生態(如 FlagOS 聯盟),但由於模型廠商對 NVIDIA生態的路徑依賴,推進難度極大。DeepSeek 此次通過深度適配昇騰晶片豎起了一面旗幟,在技術框架層面開闢非 CUDA 路徑,這種“掀桌子”是對算力底層壁壘的直接挑戰,也是我最為看重的。另一個加分項,Deepseek始終堅持開源初心,在友商紛紛收緊開源協議,如將 MIT 改為受限協議時,DeepSeek依然保持全值開放、無商業限制。這種價值觀的穩定性在當前的產業環境下極具殺傷力。岑峰:桌子掀翻之後重要的不是誰掀的,而是誰能夠在廢墟上面重新建立新的秩序。接下來想請教劉廣老師一個技術問題:R1 曾憑藉 30 萬美元的純強化學習(RL)湧現推理能力,震驚全球並登上《Nature》封面。但最新的 V4 技術報告顯示,其後訓練階段已放棄純RL 路徑,轉而採用 OPD(線上策略蒸餾)。這種路線轉變是否意味著純 RL 的泛化邊界已經顯現?劉廣:您這個問題問得非常好。最近強化學習的路線一直在討論非常多,agent RL建構新的環境腳手架,基於環境結合去做強化學習訓練,認為可以做真實生產環境的問題解決。DeepSeek又走了另外一條路徑。大模型是由資料、演算法、算力這“三駕馬車”驅動的。您剛才問的就是演算法改進,但我看到它在資料上也做了很多突破,在硬體上也做了很多突破,主要突破點其實就是效率。DeepSeek一貫的風格就是把整個訓練的效率達到一個非常極致的狀態。從 Scaling Law來看,DeepSeek 早在早期模型中就通過精確擬合找到了高資料效率的平衡點,從而將更多算力投入到參數規模的擴展上。此次V4 將資料規模從 14.8T 擴展到 30+T,參數規模也從 600B 增加到 1.6T。放棄純 RL 轉向 OPD,實際上是 DeepSeek 在追求極致訓練效率下的必然選擇。這種路徑為國產生態提供了巨大的信心。智源推出的 FlagOS也是希望通過軟體層面的適配支援多元國產晶片。DeepSeek 的示範作用,能牽引更多人關注國產算力的極致效能最佳化。在實操中我們發現,這種FP4+FP8 的混合精度訓練對轉換精度非常敏感。如果要在國產算力上用 INT8 或 BF16跑這些權重,轉換過程中的精度損失是當前生態面臨的重要挑戰。我們將開放這些經驗,助力全行業解決國產晶片的適配難題。岑峰:順著劉老師的回答,我想進一步請教楊澤乾老師:DeepSeek 後訓練哲學的轉變,是否在為早期追求極致效率而產生的架構債“還債”?楊澤乾:您這個問題問得非常專業且技術。我認為 V4 採用 OPD 並非放棄強化學習,而是一種更務實的工程權衡。R1當時出來證明的是純強化學習方式能夠湧現模型能力的上限,但中間是不可控的,CoT思維鏈以及算力消耗都不可控。V4的OPD方式,也就是線上策略蒸餾,採用的是分佈式專家的培養模式:先針對數學、程式碼、agent執行這些領域去獨立訓練專家,用SFT和RL的方式訓練,然後再將這些領域的知識蒸餾到統一的學生模型中。這個方式並不是放棄了RL技術路線,而是把強化學習放到了專家培養的階段,而在整體專家模型的整合階段,選擇了一種更高效、更穩定的蒸餾方式。這樣比較好地解決了DeepSeek V4這種兆級模型在多工場景下的性能退化問題。3. 長上下文與檢索,實用主義 vs. 完美主義岑峰:謝謝楊老師。第一輪討論勾勒出一個清晰的脈絡:DeepSeek的效率至上既是工程能力的勝利,也是特定約束下的生存策略。每一次領先確實都有代價,但每一次里程碑都看到了DeepSeek在不同層面上的嘗試。這有點像賈伯斯說的連點成畫,從不同的點進行嘗試,最後形成一幅完整的畫面。接下來我們將進入第二輪:百萬上下文時代的技術路線之爭。長上下文已從“炫技參數”轉變為“基礎設施”,DeepSeek V4等主流大模型紛紛升級至百萬級(1M)上下文。請教黎科峰老師,為何長上下文會成為當前大模型競爭的焦點?黎科峰:競爭的核心動力在於應用驅動。過去 DeepSeek 在應用層相對後覺,更關注 AGI 理想,而千問、字節、GLM 及 Minimax 等廠商早已通過APP 和開發者生態搶佔灘頭。這一年的變革極快。Manus 定義了 Agent 的自主規劃與工具呼叫模式,而 OpenClaw 則像是一個智能體版的 APP Store。這些複雜任務的處理需要長時記憶支撐。當 Agent組合多種能力處理長程任務時,拼出的 Prompt極其複雜,這對長上下文的連接能力提出了硬性要求。DeepSeek V4的升級是補齊短板的重要一步。雖然它在應用層起步較晚,但這次發佈顯示其正反向通過應用需求推動模型演進。大模型不再是舞台中央的唯一主角,而是“搭檯子”的基礎設施,唱戲的是百花齊放的專家Agent。百萬級上下文是這個“檯子”最關鍵的基石。岑峰:報告顯示 DeepSeek 在 128K 後的檢索性能有所衰減。請教楊老師,對比 Google Gemini 的原生長窗、OpenAI的o 系列推理加速及 Claude 的可控長文字,DeepSeek 這種極致壓縮路徑的優劣勢是什麼?楊澤乾:這四家目前全球 Token 呼叫量前四的廠商,在長文字策略上各具特色:DeepSeek V4是實用主義,通過 CSA+HCA 極致壓縮 KVCache,大幅降低視訊記憶體壓力。其優勢是極低成本與百萬級長度,適用於大規模程式碼重構、架構分析及超長文件總結。代價是全域高密度檢索性能會有所下降,且MoE 架構在處理跨領域知識融合時,穩定性稍遜於稠密模型。Claude的路線屬於完美主義,追求最小化壓縮以保持資訊完整。優勢是檢索精度和可控性行業頂尖,處理多工呼叫能力極強。代價是成本最高,且在需要全域注意力時,速度必然受限。它更適合法律、醫療等高資訊密度、對嚴謹性要求極高的場景。OpenAI則是全面主義, 走漸進擴展+推理模型最佳化路線。優勢在於跨模態能力強(如 GPT-4.6/5.4),通過 o系列模型專門最佳化複雜邏輯推理。然而,其成本極其昂貴,如剛發佈的 GPT-5.5輸出價格高達 130 美元/百萬 Token,與 DeepSeek 形成鮮明對比。Google Gemini屬於二者的均衡折中,堅持原生架構支援長上下文,不依賴演算法壓縮。優勢在於高密度知識檢索能力強,工程結構簡單,全域一致性好。缺點是硬體成本極高,架構靈活性有限,主要適應通用問答場景。總結來說,DeepSeek 是以效率優先解決“能用、好用”的問題;Claude 追求極致精度;OpenAI 覆蓋全高端場景;Gemini則在精度與成本間尋找平衡點。岑峰:DeepSeek V4 與硬體深度繫結,請教劉廣老師,這種“極致壓縮+低位元量化”是否會形成硬體的技術壁壘?跨平台遷移是否會面臨性能損失?劉廣:DeepSeek 的量化策略確實與硬體存在較強的協同關係,但這並非不可踰越的屏障。智源 FlagOS 團隊曾嘗試進行“反量化”,將低位元權重升維至 FP16 或BF16。技術上是可行的,但坑在於量化精度對操作順序極敏感,反量化過程中可能出現精度誤差。目前的長上下文技術其實才走了一半。雖然我們能讓模型“記住”1M 甚至更長的資訊,但這只是暫時的記憶。AGI 的核心能力是持續學習,即模型應隨環境互動改變其權重,而不僅僅是堆砌上下文。在生態側,長上下文為國產晶片帶來了差異化機會。例如當前流行的 PD 分離(Prefilling 與 Decoding分離)技術,有些國產晶片適合做預填充,有些適合做推理。智源也在佈局異構通訊等底層技術,支援在國產算力上實現長文字推理。總體來看,這種技術路線的演進正在衍生出大量新的機會。4. MoE 的精打細算 vs. 稠密模型的擴張岑峰:除了長上下文,大模型領域另一個顯著的路線分歧在於MoE(混合專家模型)與稠密模型。目前,國內“開源御三家”(DeepSeek、千問、Kimi)均選擇了MoE 路線,而西方巨頭(OpenAI、Anthropic、Google)則在主力模型上依然傾向於稠密模型。黎老師,在 Agent 時代,這兩條路線將如何演化?MoE與稠密模型之間是否存在相互學習的空間?黎科峰:中美技術選型的差異,本質上是不同資源約束下的必然結果。對於國內團隊而言,技術選型面臨著“晶片封鎖”與“預算受限”的雙重壓力。我們必須在算力供給並不充裕、硬體性能稍遜於 NVIDIA頂尖產品的環境下,通過軟硬一體化最佳化出極致性能。這就迫使我們走向 MoE這種“精打細算”的路線。反觀美國,雖然現在也面臨電力和基建的瓶頸,但其核心邏輯依然是資本驅動的大手大腳:通過堆疊更多的參數、購買更多的晶片來維持領先,形成了一套資本與算力繫結的遊戲。我認為中美的這種分化將長期存在,且各有勝場。中國大模型會在成本維度形成“降維打擊”: 當國產模型的成本只有美國的 1/10,且性能差距縮減到毫釐之間時,這種成本優勢是極其恐怖的。不過,二者目標設定也有差異:中國團隊的目標非常清晰——通過開源和極致性價比實現“彎道超車”。這並不是說美國企業不懂低精度訓練或極致壓縮,而是他們的戰略目標不在於此。最終,這兩條路徑會根據使用場景進行市場細分:追求極致精度、不計成本的場景屬於一類;而追求高性價比、大規模普及的場景則屬於另一類。DeepSeek在極度受限的條件下最佳化出的非 CUDA 生態路徑,讓我們看到了打破壟斷的希望。岑峰:我們注意到,在針對複雜程式設計任務的評測(如 SWE Pro)中,DeepSeek V4(55.4%)略遜於稠密模型Claude 4.5(57.3%)。這是否說明 MoE 的專家分工模式,在需要長程規劃和高度統一表徵的 Agent 任務中,不如稠密模型穩健?楊澤乾:MoE 架構在處理複雜 Agent 任務時,確實面臨“連貫性”的天然挑戰。以 DeepSeek V4 為例,其總參數量高達 1.6T,但單個 Token僅啟動其中的 49B(約 3%)。這種動態路由機制雖然能以更小的計算量處理海量參數,但無法像稠密模型那樣讓每一個Token 都經過全部參數的統一處理,容易導致在長程任務中出現邏輯斷層。但 MoE 並非決定性因素。例如 Kimi K2.6 同樣採用 MoE 架構,但在部分測試中卻優於某些稠密模型。DeepSeek V4在特定資料集上的劣勢,更多是其在效率與成本間進行極致取捨的結果。目前,行業最佳化 MoE 應對長程任務的思路主要有三條:改進路由機制: 採用更智能的專家選擇策略,減少路由切換頻率,維持任務狀態。強化專家間資訊共享: 提升專家網路對全域任務目標的共識。針對性強化學習: 在訓練階段專門對長程任務進行 RL 最佳化,彌補架構帶來的連貫性損失。岑峰:劉老師,如楊老師所言,MoE在Agent任務上存在"連貫性瓶頸",而Agent正是2026年大模型最重要的落地場景,MoE路徑未來還有那些可能的演進來解決這個問題?劉廣: 針對 MoE 路線的演進,我認為未來有兩個極具價值的研究方向。首先是極致的稀疏化。DeepSeek 成功的關鍵在於將 MoE的粒度做得極細。細粒度專家雖然帶來了系統通訊的挑戰,但也極大提升了模型表徵的靈活性。DeepSeek幾乎把所有的稀疏化技術都用上了:稀疏注意力、稀疏 MoE,甚至是基於分佈式表示的 N-gram。這種稀疏化不僅能提升效率,還能幫助模型進行“感知量化訓練”。如果模型足夠稀疏,我們就可以通過剪枝去掉大量權重而幾乎不影響性能,甚至可以實現將多個不同領域的專家蒸餾到一個統一模型中的“後訓練範式”。其次是打開 Transformer 的“黑盒”。過去我們將 Transformer視為不可拆解的整體,但現在的趨勢是將其細分、拆碎。通過觀測訓練過程中那些環節的值不穩定,進行針對性的架構改進(如MHC 最佳化),讓訓練變得更穩健、更高效。這種從理論機理出發,結合極致工程實踐的路徑,不僅能提升訓練效率,更能讓我們深入理解大模型的運行機制。5. 從省錢到賺錢的未來思考岑峰: 剛才三位老師深入探討了長上下文、MoE 與稠密模型的優劣。我們達成了一個共識:在百萬上下文和 Agent時代,並沒有唯一的“正確答案”。DeepSeek走的是極致性價比的壓縮路線,但在記憶完整性和連貫性上仍有挑戰;而海外巨頭如Anthropic 走完美主義路線,OpenAI 走全面路線,Google 走原生平衡路線。最終,技術路線的差異要回歸商業本質:DeepSeek 這種“省錢”的能力,能否轉化成“賺錢”的能力?大模型產業是否正從“模型競賽”轉向“系統戰爭”?請教黎老師,您如何看待這幾種路線在商業化能力上的潛力?黎科峰: 技術領域從未有“一招鮮吃遍天”的方案,大模型最終會進入細分領域的深度競爭。例如,Claude 強在 Coding,GPT強在圖像與綜合推理,豆包強在多模態。DeepSeek 則聚焦文字處理,這是一種戰略上的克制。關於商業化,我認為可以從兩個維度看:首先,成本是商業化的生命線。就像汽車行業,豪華品牌固然存在,但真正統治市場的是豐田、大眾這類大眾化品牌。性價比永遠是大規模商業化中最重要的環節。目前Claude Opus 等高端模型的開銷,即使是對擁抱 AI 的企業來說也感到沉重的壓力,更遑論未來數萬名員工全員 AI 化後的開銷。因此,Token成本持續下探是行業必然。從技術理想主義與長期主義的維度,DeepSeek比較特殊,其創始人梁文鋒現階段表現出了極強的技術理想主義,更關注如何把東西做成世界最好,而非過早商業化。這種“厚積薄發”的策略,在國產軟硬一體化最佳化的背景下,可能對閉源大廠產生巨大的衝擊。當性能接近、成本僅為對方 1/10時,這種優勢是顛覆性的。岑峰:極致效率、通用能力與落地穩定性,往往難以兼得。對於企業客戶和開發者,未來的模型選型標準會發生什麼變化?那種路線具備更長期的生命力?楊澤乾: 我認為大模型選型的判斷標準,正從單一的“模型有多聰明”轉向“系統效能的綜合評估”。主要看三個核心指標:成本可控性: 企業關注的不只是單次推理費用,而是當業務規模擴大 100 倍、完全 Agentic化之後,成本曲線是否能維持線性。在這一維度,極致效率路線具有壓倒性優勢。能力的確定性:開發者在核心場景中更看重模型的穩定性、可預測性和可解釋性。一個全能但“黑盒”且不可控的模型,其價值往往不如一個在垂直任務中表現穩健的專用模型。生態與部署的敏捷性: 能否快速整合到現有業務、能否在自有硬體上運行、出故障後是否有成熟的社區支援,這些都決定了落地的速度。DeepSeek 走的是普適化邏輯:通過 10% 的能力差距換取 10 倍以上的成本優勢,將 AI能力變成成千上萬中小企業和開發者工具箱裡的“日用品”,從而成為像水和電的行業基礎設施。而OpenAI等大廠走的是頂尖產品邏輯,為失敗容忍度極低、對成本不敏感的高風險場景提供不可替代的、最可靠的解決方案。未來市場會明顯分層,絕大多數商業場景將流向性價比更高的實用模型。岑峰:劉老師,楊老師提到了系統生態的建設。未來 AI 廠商的核心競爭力,是否會從單純的演算法研發轉向全端的系統工程能力?劉廣:這確實是大勢所趨。單一模型的能力存在侷限,必須通過系統化(Agentic 系統)來擴展其邊界。目前許多大廠已將原有的中台能力轉化為工具或 MCP(模型上下文協議)介面。此次 DeepSeek V4 的發佈,結合 Claude Code等開源/閉源腳手架,將極大加速這一過程。企業只需對模型權重進行微調,即可將其接入真實業務流程,產生實際產出。分享一個我們的實踐:在國產算力生態中編寫算子。以前依賴專家手工編寫,周期長達一至兩周。現在利用 Agent 輔助,只需 10 到 20分鐘即可生成高品質算子,並在國產晶片上順暢運行。這種方式將人力成本從數千元降低到幾十元的 Token費用,這種價值的體現會反向驅動整個系統層面的進化。DeepSeek V4 第二次加速了 AI 輔助產業重塑的處理程序。岑峰:今天的討論從 V2 談到 V4,從 MLA 架構談到 CSA+HCA 注意力機制,從“掀翻價格桌子”談到“重構基礎設施”。DeepSeek用四年時間證明:效率本身就是核心競爭力。正如三位老師所言,在 Agent 時代,大模型面臨著對連貫性、可控性和商業可持續性的新考量。每一筆“省下的錢”背後都有複雜度的代價,但 DeepSeek最大的價值在於,它打破了 Scaling Law 只能靠堆算力和堆參數的慣性。智能的邊界不僅由晶片定義,更由工程師的想像力和工程能力定義。桌子掀翻之後,最重要的不是誰掀的,而是誰能在廢墟上重建更便宜、更可控、更具生態生命力的秩序。至於未來格局如何,我們 2027年再見分曉。 (雷峰網)